1 00:00:00,734 --> 00:00:02,767 [സംഗീതം] 2 00:00:03,790 --> 00:00:04,840 [അനൗൺസർ] ഇത് പൊതുവിഭവമാണ് 3 00:00:07,834 --> 00:00:10,599 [കാൾ മലമൂട്] ഹലോ, ഞാൻ കാൾ മലമൂട്. 4 00:00:10,599 --> 00:00:12,960 പൊതു സൂചികയിലേക്ക് സ്വാഗതം. 5 00:00:12,960 --> 00:00:20,050 നിങ്ങളുടെ സൗജന്യവും പരിമിതികളില്ലാത്തതുമായി ഞങ്ങൾ ഇവിടെ അവതരിപ്പിക്കുന്നു 107 ദശലക്ഷത്തിൽ നിന്ന് വേർതിരിച്ചെടുത്ത n- ഗ്രാം സെറ്റ് ഉപയോഗിക്കുക, 6 00:00:20,050 --> 00:00:24,790 233 ആയിരം, 728 ജേണൽ ലേഖനങ്ങൾ. 7 00:00:24,790 --> 00:00:29,970 അറിയപ്പെടുന്ന ഒറ്റ വാക്കുകളിൽ നിന്ന് n- ഗ്രാം പരിധി യൂണിഗ്രാമുകളായി, രണ്ട് വാക്കുകളുള്ള ശൈലികളിലേക്ക് (ബിഗ്രാം) 8 00:00:29,970 --> 00:00:33,840 5-ഗ്രാം പദങ്ങൾ എന്നറിയപ്പെടുന്ന 5-പദ പദങ്ങൾ വരെ. 9 00:00:33,840 --> 00:00:40,440 355 ബില്യൺ വരികളായ n- ഗ്രാം ഉണ്ട് പൊതു സൂചികയുടെ ഈ റിലീസിൽ, ഓരോന്നും 10 00:00:40,440 --> 00:00:43,910 ഒരു ജേണൽ ലേഖനത്തിലെ ഹിറ്റുമായി ബന്ധപ്പെട്ടത്. 11 00:00:43,910 --> 00:00:50,579 സ്പെയ്സി എന്ന ടൂൾകിറ്റ് എക്സ്ട്രാക്റ്റ് ചെയ്യാൻ ഉപയോഗിച്ചു നമ്മൾ വിഭജിച്ച n- ഗ്രാം 12 00:00:50,579 --> 00:00:51,700 പതിനാറ് ഫയലുകളിലുടനീളം. 13 00:00:51,700 --> 00:00:56,820 ഓരോ വരിയിലും ഒരു md5 ഹാഷ് ബന്ധപ്പെട്ടിരിക്കുന്നു ഒരു ജേണൽ ലേഖനത്തെ പ്രതിനിധീകരിക്കുന്നു. 14 00:00:56,820 --> 00:01:00,350 കൂടാതെ, ഇതിന്റെ ആവൃത്തി ഞങ്ങൾ പട്ടികപ്പെടുത്തുന്നു ലേഖനത്തിൽ n- ഗ്രാം. 15 00:01:00,350 --> 00:01:05,850 കാലക്രമേണ ആവൃത്തിയും പട്ടികപ്പെടുത്തുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു മൊത്തത്തിലുള്ള കോർപ്പസിൽ, ഒരു പ്രസക്തി മെട്രിക് 16 00:01:05,850 --> 00:01:08,600 TD/IDF എന്നറിയപ്പെടുന്നു. 17 00:01:08,600 --> 00:01:14,450 എൻ-ഗ്രാമിന് പുറമേ, പൊതു സൂചിക യാക്ക് ഉപയോഗിച്ച് വേർതിരിച്ചെടുത്ത കീവേഡുകൾ അടങ്ങിയിരിക്കുന്നു 18 00:01:14,450 --> 00:01:20,320 ടൂൾകിറ്റ് സിംഗിൾ ഡോക്യുമെന്റുകളിൽ നിന്ന് വേർതിരിച്ചെടുത്ത സവിശേഷതകൾ 19 00:01:20,320 --> 00:01:24,190 ഒരു ടെക്സ്റ്റിന്റെ ഏറ്റവും പ്രധാനപ്പെട്ട കീവേഡുകൾ തിരഞ്ഞെടുക്കുക. " 20 00:01:24,190 --> 00:01:29,890 പൊതു സൂചിക കീവേഡ് പട്ടികകളിൽ അടങ്ങിയിരിക്കുന്നു ആകെ 19 ബില്യൺ കീവേഡുകൾ. 21 00:01:29,890 --> 00:01:36,530 അവസാനമായി, പൊതു സൂചികയിൽ ഒരു മെറ്റാഡാറ്റ അടങ്ങിയിരിക്കുന്നു പട്ടിക, md5 ഹാഷ് പോലുള്ള ഇനങ്ങളിലേക്ക് മാപ്പ് ചെയ്യുന്നു 22 00:01:36,530 --> 00:01:42,130 ഒരു ജേണൽ ലേഖനത്തിനുള്ള DOI തനതായ വിലാസം, ശീർഷകം, രചയിതാവ്, ജേണൽ. 23 00:01:42,130 --> 00:01:47,000 ഇത് പൊതു സൂചികയുടെ നേരത്തെയുള്ള പ്രകാശനമാണ്, ഒരു പണി പുരോഗമിക്കുന്നു. 24 00:01:47,000 --> 00:01:49,900 ചില സന്ദർഭങ്ങളിൽ, ടെക്സ്റ്റ് എക്സ്ട്രാക്ഷൻ പരാജയപ്പെട്ടു. 25 00:01:49,900 --> 00:01:54,450 ചിലപ്പോൾ, മെറ്റാഡാറ്റ ലഭ്യമല്ല, അല്ലെങ്കിൽ ഒരുപക്ഷേ തെറ്റായിരിക്കാം. 26 00:01:54,450 --> 00:01:59,830 അന്തർലീനമായ കോർപ്പസ് വലുതാണെങ്കിലും, അത് പൂർത്തിയായിട്ടില്ല, കാലികമല്ല. 27 00:01:59,830 --> 00:02:04,430 ഇത് മെച്ചപ്പെടുത്താൻ നിരവധി മാർഗങ്ങളുണ്ട്, ഞങ്ങൾ ജനറൽ ആകാൻ കാത്തിരിക്കുന്നു 28 00:02:04,430 --> 00:02:07,369 കാലക്രമേണ മെച്ചപ്പെട്ട സൂചിക. 29 00:02:07,369 --> 00:02:13,260 പൊതു സൂചിക ഏകദേശം 38 ആണ് ഒരു പോസ്റ്റ്ഗ്രെസിന്റെ രൂപത്തിൽ ടെറാബൈറ്റ് ഡാറ്റ 30 00:02:13,260 --> 00:02:20,010 എങ്ങനെയെങ്കിലും കംപ്രഷൻ ഉപയോഗിച്ച്, ഈ ASCII ഡാറ്റ 8.5 ടെറാബൈറ്റായി ചുരുക്കി. 31 00:02:20,010 --> 00:02:25,139 നിങ്ങൾക്ക് ഇവിടെ നിന്ന് നേരിട്ട് ഡാറ്റ ഡൗൺലോഡ് ചെയ്യാം, അല്ലെങ്കിൽ bittorrent പോലുള്ള ഉപകരണങ്ങൾ ഉപയോഗിക്കുക. 32 00:02:25,139 --> 00:02:31,540 കണ്ണാടികളോ മറ്റ് പൊതുജനങ്ങളോ സൃഷ്ടിക്കാൻ മടിക്കേണ്ടതില്ല പൊതു സൂചിക പുനർവിതരണം ചെയ്യുന്നതിനുള്ള സംഭരണികൾ. 33 00:02:31,540 --> 00:02:37,689 ഇത് ഒരു സംഖ്യയിൽ ഉൾപ്പെടുത്താനാകുമെന്നാണ് ഞങ്ങളുടെ പ്രതീക്ഷ ഉപയോഗങ്ങൾ. ഞങ്ങൾ ഒരു പോസ്റ്റ്ഗ്രെസ് ഡാറ്റാബേസ് ഉപയോഗിക്കുന്നു, 34 00:02:37,689 --> 00:02:42,919 തിരയാൻ പൊതു സൂചിക ഉപയോഗിക്കുന്നു ഒരു മാസ്റ്റർ ലിസ്റ്റിൽ നിന്നുള്ള സസ്യങ്ങളുടെ പേരുകൾ. 35 00:02:42,919 --> 00:02:48,219 മറ്റുള്ളവരെ തിരയാൻ സൂചിക ഉപയോഗിക്കാം രാസവസ്തുക്കൾ പോലുള്ള വസ്തുക്കൾ, വിവിധ ജീനുകൾ 36 00:02:48,219 --> 00:02:54,300 എൻകോഡിംഗുകൾ, പ്രോട്ടീനുകൾ, മെറ്റീരിയലുകൾ, സ്ഥലപ്പേരുകൾ, അല്ലെങ്കിൽ മറ്റ് സ്ഥാപനങ്ങൾ. 37 00:02:54,300 --> 00:03:00,129 ഒരു പോസ്റ്റ്ഗ്രെസ് ഡാറ്റാബേസിനുപകരം, മറ്റ് ടെക്നിക്കുകൾ, BERT പോലുള്ളവ, ഡാറ്റയിൽ പ്രയോഗിക്കാവുന്നതാണ്. 38 00:03:00,129 --> 00:03:05,909 ഇത് ഒരു തിരയൽ ഉപകരണമാണ്, അറിവിന്റെ നിഘണ്ടു, അറിവിലേക്കുള്ള ഒരു ഭൂപടം, ഞങ്ങൾ വിശ്വസിക്കുന്ന ഒരു ഉപകരണം 39 00:03:05,909 --> 00:03:10,500 പരിശീലനത്തിന് അത്യാവശ്യമായ ഒരു സൗകര്യമാണ് നമ്മുടെ ആധുനിക കാലഘട്ടത്തിലെ ശാസ്ത്രം. 40 00:03:10,500 --> 00:03:16,919 അറിവിലേക്കുള്ള ഈ പൊതു സൂചിക ഉണ്ടാക്കുന്നില്ല ലഭ്യമായ അടിസ്ഥാന കോർപ്പസ്, മറിച്ച് വസ്തുതകൾ 41 00:03:16,919 --> 00:03:19,099 കോർപ്പസിൽ നിന്ന് വേർതിരിച്ചെടുക്കുന്നു. 42 00:03:19,099 --> 00:03:23,599 ഇതൊരു സംവേദനക്ഷമമല്ല പരിവർത്തന ഉപയോഗവും. 43 00:03:23,599 --> 00:03:28,569 ഞങ്ങൾ ഇത് ഒരു പൊതു ഉപയോഗമായി കാണുന്നു പൊതു സൂചികയിൽ ഉടമസ്ഥാവകാശമില്ല. 44 00:03:28,569 --> 00:03:35,599 ഇത് പൊതുസഞ്ചയമായ ഒരു പരമ്പരയ്ക്കായി സമർപ്പിക്കുന്നു നിങ്ങൾക്ക് കഴിയുന്ന രേഖകളില്ലാത്ത വസ്തുതകൾ 45 00:03:35,599 --> 00:03:37,019 നിങ്ങൾക്ക് ഇഷ്ടമുള്ളത് ചെയ്യുക. 46 00:03:37,019 --> 00:03:40,220 യാതൊരു അവകാശങ്ങളും നിക്ഷിപ്തമല്ല. 47 00:03:40,220 --> 00:03:46,510 കണ്ടെത്തലിലേക്കുള്ള വഴിയിലുള്ള പണ്ഡിതന്മാർക്ക് കൂടിയാലോചിക്കാം ലക്ഷ്യസ്ഥാനങ്ങൾ വേഗത്തിൽ കണ്ടെത്താനുള്ള ഈ മാർഗരേഖ 48 00:03:46,510 --> 00:03:52,540 അവർ സന്ദർശിക്കാൻ ആഗ്രഹിക്കുന്നു ലോകത്തിലെ വിശാലമായ ആർക്കൈവുകളുടെ ഇടനാഴികൾ, 49 00:03:52,540 --> 00:03:58,769 പണ്ഡിതന്മാരുടെയും ശാസ്ത്രജ്ഞരുടെയും കൂട്ടായ സമൂഹം സൃഷ്ടിച്ച എഞ്ചിനീയർമാരും കലാകാരന്മാരും 50 00:03:58,769 --> 00:04:01,370 ഈ അറിവിന്റെ ക്ഷേത്രങ്ങൾ. 51 00:04:01,370 --> 00:04:08,219 ഈ ക്ഷേത്രങ്ങൾ, അലക്സാണ്ട്രിയ ലൈബ്രറിയിൽ നിന്ന് സന്യാസിമാരിൽ നിന്ന് അലക്സാണ്ട്ര ലൈബ്രറിയിലേക്ക് 52 00:04:08,219 --> 00:04:14,239 വിശാലമായ ആധുനിക ഗവേഷണ ലൈബ്രറികളിലേക്ക് അയർലണ്ടിന്റെ ഇന്നത്തെ, അറബ്, ജൂത എഴുത്തുകാരിൽ നിന്ന് 53 00:04:14,239 --> 00:04:19,910 ജ്ഞാനത്തിന്റെ ഭവനം പണിയാൻ ഒരുമിച്ച് പ്രവർത്തിക്കുന്നു ബാഗ്ദാദിൽ വിജ്ഞാന ഫാക്ടറികളിലേക്ക് 54 00:04:19,910 --> 00:04:25,071 ആധുനിക ഈസ്റ്റ് ഇന്ത്യൻ ട്രേഡിംഗ് ഹൗസുകളിൽ ഓക്സ്ഫോർഡിന്റെയും കേംബ്രിഡ്ജിന്റെയും പ്രസ്സുകൾ, ഇവ 55 00:04:25,071 --> 00:04:30,400 പണ്ഡിതന്മാർ സന്ദർശിക്കേണ്ട സ്ഥലങ്ങളാണ് അവരുടെ കരകൗശല മുന്നേറാൻ, പഠിക്കാൻ 56 00:04:30,400 --> 00:04:31,950 ഞങ്ങളുടെ മുന്നിൽ വന്നവർ. 57 00:04:31,950 --> 00:04:37,190 ഈ ക്ഷേത്രങ്ങളിൽ എല്ലാ അറിവുകളും അടങ്ങിയിരിക്കുന്നു, പക്ഷേ നമുക്ക് ആ അറിവ് കണ്ടെത്താൻ കഴിയണം. 58 00:04:37,190 --> 00:04:39,500 പൊതു സൂചിക ഒരു ഭൂപടമാണ്. 59 00:04:39,500 --> 00:04:44,630 ഇത് എല്ലാ മനുഷ്യ അറിവിന്റെയും ആകെത്തുകയുള്ള ഒരു ഭൂപടമല്ല, 60 00:04:44,630 --> 00:04:46,410 എന്നാൽ ഇത് തീർച്ചയായും ഒരു ഗണ്യമായ ഉപവിഭാഗമാണ്. 61 00:04:46,410 --> 00:04:51,960 അറിവിന്റെ വർദ്ധനവിനും വ്യാപനത്തിനും തുടരാൻ, നമ്മൾ തോളിൽ നിൽക്കണമെങ്കിൽ 62 00:04:51,960 --> 00:04:56,520 ഭീമന്മാരുടെ, ഞങ്ങൾ ഈ മാപ്പുകൾ അതിനായി നൽകണം ആശയങ്ങളുടെ വിശാലമായ ലോകം. 63 00:04:56,520 --> 00:05:02,670 പൊതു സൂചിക ഒരു ഉപകരണം മാത്രമാണ് കാലക്രമേണ ഗുണനിലവാരം ലഭിക്കുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു 64 00:05:02,670 --> 00:05:08,250 വ്യാപ്തിയിൽ, അത് നൽകുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്ന ഒരു ഉപകരണം ഉപയോഗപ്രദമായ സംഭാവന 65 00:05:08,250 --> 00:05:09,460 നിങ്ങളുടെ ശാസ്ത്ര പരിശീലനത്തിലേക്ക്. 66 00:05:09,460 --> 00:05:14,121 നിങ്ങൾ ഈ പൊതു സൂചികയും നൽകുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു ആശ്ചര്യകരമായ ഉപയോഗങ്ങൾ, നമുക്ക് സൂചിക ഉണ്ടാക്കാൻ കഴിയും 67 00:05:14,121 --> 00:05:19,670 നല്ലത്, നിങ്ങൾക്ക് മറ്റ് ഉപകരണങ്ങൾ സൃഷ്ടിക്കാൻ കഴിയും, അതായത് പണ്ഡിത സമൂഹത്തിന് ഒരുമിച്ച് പ്രവർത്തിക്കാൻ കഴിയും 68 00:05:19,670 --> 00:05:24,910 വിശാലമായ ആഴം ഖനനം ചെയ്യാനുള്ള ഒരു പൊതു അന്വേഷണത്തിൽ ഈ പഠന സമുദ്രത്തിന്റെ. 69 00:05:24,910 --> 00:05:30,160 നാമെല്ലാവരും ഒരു പൊതു ലക്ഷ്യം പങ്കിടുന്നുവെന്ന് ഞാൻ വിശ്വസിക്കുന്നു, ഒരു പൊതു പ്രതീക്ഷ. 70 00:05:30,160 --> 00:05:35,660 ശാസ്ത്രജ്ഞർ, പണ്ഡിതന്മാർ, കലാകാരന്മാർ, എഴുത്തുകാർ, ലോകത്തിന്റെ പൗരന്മാരായി, കുട്ടികൾ ആഗ്രഹിക്കുന്നതുപോലെ 71 00:05:35,660 --> 00:05:41,770 പഠിക്കാൻ, ജിജ്ഞാസയുള്ള മനുഷ്യരെന്ന നിലയിൽ, ഞാൻ വിശ്വസിക്കുന്നു വർദ്ധനവും വ്യാപനവും ഉണ്ടാകുമെന്ന് നാമെല്ലാവരും പ്രതീക്ഷിക്കുന്നു 72 00:05:41,770 --> 00:05:47,100 അറിവ് നമ്മുടെ ലോകത്തെ മികച്ചതാക്കും സ്ഥലം, അത് നമ്മുടേത് മനസ്സിലാക്കാൻ സഹായിക്കും 73 00:05:47,100 --> 00:05:53,110 ലോകം, രോഗവും ദാരിദ്ര്യവും ഭേദമാക്കാൻ, മുന്നേറാൻ ശാസ്ത്രത്തിന്റെയും വാണിജ്യത്തിന്റെയും പുരോഗതിയും 74 00:05:53,110 --> 00:05:55,000 മാനവികതയും കലയും. 75 00:05:55,000 --> 00:06:01,140 ശാസ്ത്രം നമ്മൾ എല്ലാവരും സംസാരിക്കേണ്ട ഒരു ഭാഷയാണ് നമ്മൾ നമ്മുടെ ലോകം നന്നാക്കണം. 76 00:06:01,140 --> 00:06:03,620 കേട്ടതിനു നന്ദി. 77 00:06:03,620 --> 00:06:11,890 [മുദ്ര കുരയ്ക്കുന്നു] 78 00:06:11,890 --> 00:06:13,950 [സംഗീതം]